Un método de análisis de lenguaje tipo SMS para el castellano
نویسندگان
چکیده
The usage of specific language codes and chat and SMS-like messages is a major trend in electronic communications. This fact makes Natrual Language Processing quite hard, even at the simplest step fo text message tokenization, due to the widespread usage of non-alphanumeric symbols, frequent typos and non-standard word separators. In this work we present a new approach for text message tokenization, specific for the Spanish language as used in Social Networks and in electronic communications. Our system has been integrated in a more general application for agedetection in Social Networks developed in the research and development project WENDY, and it has been quantitatively evaluated both in a direct fashion, and indirectly by its impact on the genearl age-detection application, showing very promising results.
منابع مشابه
Sistema de Consultas en Lenguaje Natural para Bases de Datos
Este trabajo se plantea el desarrollo de un módulo de consulta en lenguaje natural (en forma escrita) a una base de datos relacional empleada en el sistema ITASS. Dicho módulo involucra los procesos propios de un sistema de consultas en lenguaje natural a bases de datos relacionales; análisis sintáctico, análisis semántico, análisis morfológico y la interpretación de la consulta a un lenguaje f...
متن کاملEstudio sobre métodos tipo Lesk usados para la desambiguación de sentidos de palabras
Resumen. La ambigüedad semántica es un problema que se presenta en todos los lenguajes naturales. Podríamos decir que para los seres humanos la ambigüedad en el lenguaje pasa desapercibida, debido a que la resolvemos casi inconscientemente utilizando la realidad en que vivimos, el contexto y el conocimiento que poseemos sobre algunos temas. Pero para las computadoras no es así. En el área de pr...
متن کاملUna aproximación para resolución de ambigüedad estructural empleando tres mecanismos diferentes
Resumen La ambigüedad estructural es uno de los problemas más difíciles de resolver en sistemas de procesamiento de lenguaje natural. Consideramos dos tipos de resolución de ambigüedad estructural que pueden emplearse en el análisis de textos sin restricciones: conocimiento léxico y cierta clase de contexto. En este trabajo, proponemos un modelo basado en tres diferentes mecanismos para revelar...
متن کاملCorrecciones semánticas en métodos de estimación de completitud de modelos en lenguaje natural
La Ingeniería de Requisitos tiene como objetivo producir requisitos de alta calidad, poniendo especial interés en la completitud de los modelos elaborados. Establecer si la información elicitada y modelada es suficiente para construir un software que cubra las necesidades del cliente es una cuestión de difícil respuesta. Existen algunos intentos realizados en ese sentido, tal como una adaptació...
متن کاملAnálisis sintáctico ascendente de TAGs guiado por la esquina izquierda
Resumen Definimos un nuevo analizador para Gramáticas de Adjunción de Árboles (TAGs, Tree Adjoining Grammars) que es una extensión del analizador ascendente guiado por la esquina izquierda para Gramáticas Incontextuales (CFGs, Context Free Grammars). La complejidad temporal teórica del nuevo analizador permanece en la cota del análisis de TAGs, siendo ésta de O(n6) en el peor de los casos, dond...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Linguamática
دوره 5 شماره
صفحات -
تاریخ انتشار 2013